内核生存分析模型借助内核函数估计了个体生存分布,该分布衡量了任意两个数据点之间的相似性。可以使用深内核存活模型来学习这种内核函数。在本文中,我们提出了一种名为“生存内核”的新的深内核生存模型,该模型以模型解释和理论分析的方式将大型数据集扩展到大型数据集。具体而言,根据最近开发的训练集压缩方案,用于分类和回归,将培训数据分为簇,称为内核网,我们将其扩展到生存分析设置。在测试时间,每个数据点表示为这些簇的加权组合,每个数据点可以可视化。对于生存核的特殊情况,我们在预测的生存分布上建立了有限样本误差,该误差是最佳的,该误差是最佳的。尽管使用上述内核网络压缩策略可以实现测试时间的可伸缩性,但训练过程中的可伸缩性是通过基于XGBoost(例如Xgboost)的暖启动程序和加速神经建筑搜索的启发式方法来实现的。在三个不同大小的标准生存分析数据集(大约300万个数据点)上,我们表明生存核具有很高的竞争力,并且在一致性指数方面经过测试的最佳基线。我们的代码可在以下网址找到:https://github.com/georgehc/survival-kernets
translated by 谷歌翻译
图形离群值检测是一项具有许多应用程序的新兴但至关重要的机器学习任务。尽管近年来算法扩散,但缺乏标准和统一的绩效评估设置限制了它们在现实世界应用中的进步和使用。为了利用差距,我们(据我们所知)(据我们所知)第一个全面的无监督节点离群值检测基准为unod,并带有以下亮点:(1)评估骨架从经典矩阵分解到最新图形神经的骨架的14个方法网络; (2)在现实世界数据集上使用不同类型的注射异常值和自然异常值对方法性能进行基准测试; (3)通过在不同尺度的合成图上使用运行时和GPU存储器使用算法的效率和可扩展性。基于广泛的实验结果的分析,我们讨论了当前渠道方法的利弊,并指出了多个关键和有希望的未来研究方向。
translated by 谷歌翻译
异常值检测是指偏离一般数据分布的数据点的识别。现有的无监督方法经常遭受高计算成本,复杂的绰号调谐以及有限的解释性,特别是在使用大型高维数据集时。为了解决这些问题,我们介绍了一种称为ECOD(基于实证累积分布的异常值检测)的简单而有效的算法,这是由异常值常常出现在分布尾部的“罕见事件”的事实的启发。在简而言之,ECOD首先通过计算数据的各维度的经验累积分布来估计输入数据的基础分布以非参数。 ECOD然后使用这些经验分布来估计每个数据点的每维的尾部概率。最后,ECOD通过跨尺寸聚合估计的尾概率来计算每个数据点的异常值。我们的贡献如下:(1)我们提出了一种名为ECOD的新型异常检测方法,这既是可参数又易于解释; (2)我们在30个基准数据集上进行广泛的实验,在那里我们发现ECOD在准确性,效率和可扩展性方面优于11个最先进的基线; (3)我们释放易于使用和可扩展的(具有分布式支持)Python实现,以实现可访问性和再现性。
translated by 谷歌翻译
我们提出了TOD,这是一个在分布式多GPU机器上进行有效且可扩展的离群检测(OD)的系统。 TOD背后的一个关键思想是将OD应用程序分解为基本张量代数操作。这种分解使TOD能够通过利用硬件和软件中深度学习基础架构的最新进展来加速OD计算。此外,要在有限内存的现代GPU上部署昂贵的OD算法,我们引入了两种关键技术。首先,可证明的量化可以加快OD计算的速度,并通过以较低的精度执行特定的浮点操作来减少其内存足迹,同时证明没有准确的损失。其次,为了利用多个GPU的汇总计算资源和内存能力,我们引入了自动批处理,该批次将OD计算分解为小批次,以便在多个GPU上并行执行。 TOD支持一套全面且多样化的OD算法,例如LOF,PCA和HBOS以及实用程序功能。对真实和合成OD数据集的广泛评估表明,TOD平均比领先的基于CPU的OD系统PYOD快11.6倍(最大加速度为38.9倍),并且比各种GPU底线要处理的数据集更大。值得注意的是,TOD可以直接整合其他OD算法,并提供了将经典OD算法与深度学习方法相结合的统一框架。这些组合产生了无限数量的OD方法,其中许多方法是新颖的,可以很容易地在TOD中进行原型。
translated by 谷歌翻译
我们为基于Kaplan-Meier的最近的邻居和内核存活率估计值建立了第一个非矩形误差界限,其中特征向量位于度量空间中。我们的边界意味着这些非参数估计器的强度速率,并且最多可与对数因子匹配有条件的CDF估计的现有下限。我们的证明策略还为纳尔逊 - 阿伦累积危害估计量的最近的邻居和内核变体提供了非矩形保证。我们在四个数据集上实验比较这些方法。我们发现,对于内核存活率估计量,核心的一个不错的选择是使用随机生存森林学习的。
translated by 谷歌翻译
通用数据模型解决了标准化电子健康记录(EHR)数据的许多挑战,但无法将其集成深度表型所需的资源。开放的生物学和生物医学本体论(OBO)铸造本体论提供了可用于生物学知识的语义计算表示,并能够整合多种生物医学数据。但是,将EHR数据映射到OBO Foundry本体论需要大量的手动策展和域专业知识。我们介绍了一个框架,用于将观察性医学成果合作伙伴关系(OMOP)标准词汇介绍给OBO铸造本体。使用此框架,我们制作了92,367条条件,8,615种药物成分和10,673个测量结果的映射。域专家验证了映射准确性,并且在24家医院进行检查时,映射覆盖了99%的条件和药物成分和68%的测量结果。最后,我们证明OMOP2OBO映射可以帮助系统地识别可能受益于基因检测的未诊断罕见病患者。
translated by 谷歌翻译
$ \ mathbf {perive} $:使用人工智能(AI)到:(1)从相对较大的人群中利用视神经头(ONH)的生物力学知识; (2)评估ONH的单个光学相干断层扫描(OCT)扫描的稳健性; (3)确定哪些关键的三维(3D)结构特征使给定的ONH稳健。 $ \ Mathbf {Design} $:回顾性横断面研究。 $ \ mathbf {Methods} $:316个受试者通过Ophthalmo-Dynamometry在急性眼内和之后与OCT成像。然后将IOP诱导的椎板胶状变形映射为3D,并用于对ONH进行分类。 LC变形高于4%的人被认为是脆弱的,而变形较低的人则较低4%。从这些数据中学习,我们比较了三种AI算法,以严格地从基线(未呈现的)OCT卷中预测鲁棒性:(1)随机森林分类器; (2)自动编码器; (3)动态图CNN(DGCNN)。后一种算法还使我们能够确定哪些关键的3D结构特征使给定的智能稳定。 $ \ mathbf {结果} $:所有3种方法都能够单独预测3D结构信息的稳健性,而无需执行生物力学测试。 DGCNN(接收器操作曲线下的区域[AUC]:0.76 $ \ pm $ 0.08)的表现优于自动编码器(AUC:0.70 $ \ pm $ 0.07)和随机森林分类器(AUC:0.69 $ \ pm $ 0.05)。有趣的是,为了评估稳健性,DGCNN主要使用了巩膜和LC插入部位的信息。 $ \ mathbf {结论} $:我们提出了一种AI驱动的方法,可以仅从ONH的单个OCT扫描中评估给定ONH的稳健性,而无需进行生物力学测试。纵向研究应确定ONH鲁棒性是否可以帮助我们确定快速的视野损失进展者。
translated by 谷歌翻译
功能空间中的监督学习是机器学习研究的一个新兴领域,并应用了复杂物理系统(例如流体流,固体力学和气候建模)的预测。通过直接学习无限尺寸函数空间之间的地图(运算符),这些模型能够学习目标函数的离散不变表示。一种常见的方法是将此类目标函数表示为从数据中学到的基础元素的线性组合。但是,在一个简单的方案中,即使目标函数形成低维的子手机,也需要大量的基础元素才能进行准确的线性表示。在这里,我们提出了Nomad,这是一个新型的操作员学习框架,该框架具有一个非线性解码器图,能够学习功能空间中非线性子手机的有限尺寸表示。我们表明,该方法能够准确地学习溶液歧管的低维表示,而偏微分方程的表现优于较大尺寸的线性模型。此外,我们将最先进的操作员学习方法进行比较,并在复杂的流体动力学基准上进行学习,并以明显较小的模型尺寸和训练成本实现竞争性能。
translated by 谷歌翻译
超越地球轨道的人类空间勘探将涉及大量距离和持续时间的任务。为了有效减轻无数空间健康危害,数据和空间健康系统的范式转移是实现地球独立性的,而不是Earth-Reliance所必需的。有希望在生物学和健康的人工智能和机器学习领域的发展可以解决这些需求。我们提出了一个适当的自主和智能精密空间健康系统,可以监控,汇总和评估生物医学状态;分析和预测个性化不良健康结果;适应并响应新累积的数据;并提供对其船员医务人员的个人深度空间机组人员和迭代决策支持的预防性,可操作和及时的见解。在这里,我们介绍了美国国家航空航天局组织的研讨会的建议摘要,以便在太空生物学和健康中未来的人工智能应用。在未来十年,生物监测技术,生物标志科学,航天器硬件,智能软件和简化的数据管理必须成熟,并编织成精确的空间健康系统,以使人类在深空中茁壮成长。
translated by 谷歌翻译
空间生物学研究旨在了解太空飞行对生物的根本影响,制定支持深度空间探索的基础知识,最终生物工程航天器和栖息地稳定植物,农作物,微生物,动物和人类的生态系统,为持续的多行星寿命稳定。要提高这些目标,该领域利用了来自星空和地下模拟研究的实验,平台,数据和模型生物。由于研究扩展到低地球轨道之外,实验和平台必须是最大自主,光,敏捷和智能化,以加快知识发现。在这里,我们介绍了由美国国家航空航天局的人工智能,机器学习和建模应用程序组织的研讨会的建议摘要,这些应用程序为这些空间生物学挑战提供了关键解决方案。在未来十年中,将人工智能融入太空生物学领域将深化天空效应的生物学理解,促进预测性建模和分析,支持最大自主和可重复的实验,并有效地管理星载数据和元数据,所有目标使生活能够在深空中茁壮成长。
translated by 谷歌翻译